气候变化仍然是一个迫在眉睫的问题,目前影响社会大。重要的是,我们作为一个社会,包括计算机愿景(CV)社区采取措施限制对环境的影响。在本文中,我们(a)分析了CV方法递减递减的效果,(b)提出了一种\ entyit {'nofade''}:一种基于新的基于熵的度量来量化模型 - 数据集 - 复杂性关系。我们表明一些简历的任务正在达到饱和度,而其他CV任务几乎完全饱和。在这种光中,Nofade允许CV社区在类似的基础上比较模型和数据集,建立不良平台。
translated by 谷歌翻译
Cutting-edge diffusion models produce images with high quality and customizability, enabling them to be used for commercial art and graphic design purposes. But do diffusion models create unique works of art, or are they stealing content directly from their training sets? In this work, we study image retrieval frameworks that enable us to compare generated images with training samples and detect when content has been replicated. Applying our frameworks to diffusion models trained on multiple datasets including Oxford flowers, Celeb-A, ImageNet, and LAION, we discuss how factors such as training set size impact rates of content replication. We also identify cases where diffusion models, including the popular Stable Diffusion model, blatantly copy from their training data.
translated by 谷歌翻译
We present a framework for ranking images within their class based on the strength of spurious cues present. By measuring the gap in accuracy on the highest and lowest ranked images (we call this spurious gap), we assess spurious feature reliance for $89$ diverse ImageNet models, finding that even the best models underperform in images with weak spurious presence. However, the effect of spurious cues varies far more dramatically across classes, emphasizing the crucial, often overlooked, class-dependence of the spurious correlation problem. While most spurious features we observe are clarifying (i.e. improving test-time accuracy when present, as is typically expected), we surprisingly find many cases of confusing spurious features, where models perform better when they are absent. We then close the spurious gap by training new classification heads on lowly ranked (i.e. without common spurious cues) images, resulting in improved effective robustness to distribution shifts (ObjectNet, ImageNet-R, ImageNet-Sketch). We also propose a second metric to assess feature reliability, finding that spurious features are generally less reliable than non-spurious (core) ones, though again, spurious features can be more reliable for certain classes. To enable our analysis, we annotated $5,000$ feature-class dependencies over {\it all} of ImageNet as core or spurious using minimal human supervision. Finally, we show the feature discovery and spuriosity ranking framework can be extended to other datasets like CelebA and WaterBirds in a lightweight fashion with only linear layer training, leading to discovering a previously unknown racial bias in the Celeb-A hair classification.
translated by 谷歌翻译
Climate change is becoming one of the greatest challenges to the sustainable development of modern society. Renewable energies with low density greatly complicate the online optimization and control processes, where modern advanced computational technologies, specifically quantum computing, have significant potential to help. In this paper, we discuss applications of quantum computing algorithms toward state-of-the-art smart grid problems. We suggest potential, exponential quantum speedup by the use of the Harrow-Hassidim-Lloyd (HHL) algorithms for sparse matrix inversions in power-flow problems. However, practical implementations of the algorithm are limited by the noise of quantum circuits, the hardness of realizations of quantum random access memories (QRAM), and the depth of the required quantum circuits. We benchmark the hardware and software requirements from the state-of-the-art power-flow algorithms, including QRAM requirements from hybrid phonon-transmon systems, and explicit gate counting used in HHL for explicit realizations. We also develop near-term algorithms of power flow by variational quantum circuits and implement real experiments for 6 qubits with a truncated version of power flows.
translated by 谷歌翻译
深度神经网络(DNN)几乎在商业,技术和科学上几乎普遍存在计算机视觉任务中实现了前所未有的表现。尽管为高度准确的体系结构而做出了大量的努力并提供了可用的模型解释,但大多数最先进的方法首先是为自然视觉设计的,然后转换为医疗领域。本论文旨在通过提出新的体系结构来解决这一差距,这些新型体系结构将医学成像的特定域约束纳入DNN模型和解释设计。
translated by 谷歌翻译
建模是什么使广告有说服力的原因,即引起消费者的所需响应,对于宣传,社会心理学和营销的研究至关重要。尽管其重要性,但计算机视觉中说服力的计算建模仍处于起步阶段,这主要是由于缺乏可以提供与ADS相关的说服力标签的基准数据集。由社会心理学和市场营销中的说服文学的激励,我们引入了广泛的说服策略词汇,并建立了用说服策略注释的第一个AD图像语料库。然后,我们通过多模式学习制定说服策略预测的任务,在该任务中,我们设计了一个多任务注意融合模型,该模型可以利用其他广告理解的任务来预测说服策略。此外,我们对30家财富500家公司的1600个广告活动进行了真实的案例研究,我们使用模型的预测来分析哪些策略与不同的人口统计学(年龄和性别)一起使用。该数据集还提供图像分割掩码,该蒙版在测试拆分上标记了相应的AD图像中的说服力策略。我们公开发布代码和数据集https://midas-research.github.io/persuasion-avertisements/。
translated by 谷歌翻译
我们首次建议使用基于多个实例学习的无卷积变压器模型,称为多个实例神经图像变压器(Minit),以分类T1Weighted(T1W)MRIS。我们首先介绍了为神经图像采用的几种变压器模型。这些模型从输入体积提取非重叠的3D块,并对其线性投影进行多头自我注意。另一方面,Minit将输入MRI的每个非重叠的3D块视为其自己的实例,将其进一步分为非重叠的3D贴片,并在其上计算了多头自我注意力。作为概念验证,我们通过训练模型来评估模型的功效,以确定两个公共数据集的T1W-MRIS:青少年脑认知发展(ABCD)和青少年酒精和神经发展联盟(NCANDA)(NCANDA) 。博学的注意力图突出了有助于识别脑形态计量学性别差异的体素。该代码可在https://github.com/singlaayush/minit上找到。
translated by 谷歌翻译
丰富的时间信息和视角中的变化使视频数据成为使用无监督的对比度学习(UCL)技术学习图像表示的有吸引力的选择。最先进的(SOTA)对比度学习技术将视频中的帧视为嵌入空间中的阳性,而其他视频的框架则被视为负面因素。我们观察到,与自然场景视频中对象的多种视图不同,超声(US)视频捕获了器官的不同2D片。因此,即使是相同的美国视频的暂时遥远框架之间几乎没有相似之处。在本文中,我们建议相反使用诸如硬底面的框架。我们主张在UCL框架中对硬度敏感的负挖掘课程进行挖掘,并在硬度敏感的负面挖掘课程中挖掘,以学习丰富的图像表示。我们部署框架以从美国视频中学习胆囊(GB)恶性肿瘤的表示。我们还构建了第一个大型US视频数据集,其中包含64个视频和15,800帧,用于学习GB表示。我们表明,经过我们框架训练的标准RESNET50骨干线可以提高使用SOTA UCL技术预测的模型的准确性,并在Imagenet上对ImageNet上的有监督的预处理模型提高了GB恶性检测任务的预期模型,提高了2-6%。我们进一步验证了方法在COVID-19病理的公开肺图像数据集上的普遍性,与SOTA相比,改善了1.5%。源代码,数据集和模型可在https://gbc-iitd.github.io/usucl上找到。
translated by 谷歌翻译
超声使用是因为其成本低,非电离和非侵入性特征,并且已成为基石放射学检查。超声应用程序的研究也扩大了,尤其是通过机器学习的图像分析。但是,超声数据通常仅限于封闭的数据集,只有少数几个公开可用。尽管经常检查器官,但肾脏缺乏公开可用的超声数据集。拟议的开放肾脏超声数据集是第一套公开可用的肾脏B模式超声数据,其中包括用于多级语义分段的注释。它基于5年以上500多名患者的回顾性收集的数据,平均年龄为53.2 +/- 14。7年,体重指数为27.0 +/- 5.4 kg/m2,最常见的原发性疾病是糖尿病,IgA肾病和高血压。有两位专家超声师的视图标签和细粒度的手动注释。值得注意的是,该数据包括天然和移植的肾脏。进行了初始的基准测量测量,证明了一种最先进的算法,该算法达到了肾脏胶囊的骰子Sorenson系数为0.74。该数据集是一个高质量的数据集,包括两组专家注释,图像比以前可用的更大。为了增加获得肾脏超声数据的访问,未来的研究人员可能能够创建用于组织表征,疾病检测和预后的新型图像分析技术。
translated by 谷歌翻译
建模超声斑点对其表征组织特性的能力引起了极大的兴趣。由于斑点取决于潜在的组织结构,因此对其进行建模可能有助于分割或疾病检测等任务。但是,对于通常用于研究功能障碍的移植肾脏,目前尚不清楚哪个统计分布最能表征这种斑点。对于移植肾脏的区域而言,尤其如此:皮质,髓质和中央回声复合物。此外,目前尚不清楚这些分布如何因患者变量(例如年龄,性别,体重指数,原发性疾病或供体类型)而有所不同。这些特征可能会影响斑点建模,鉴于它们对肾脏解剖结构的影响。我们是第一个调查这两个目标的人。 n = 821肾移植受者B模式图像自动使用神经网络自动分段到皮质,髓质和中央回声复合物中。每个区域都安装了七个不同的概率分布。雷利和中族分布的模型参数在这三个区域之间有显着差异(p <= 0.05)。虽然两者都具有极好的合身性,但中田族具有更高的Kullbeck-Leibler Divergence。受体年龄与皮质中的尺度弱相关(Omega:Rho = 0.11,p = 0.004),而体重指数与髓质中的形状微弱相关(M:RHO = 0.08,p = 0.04)。性别,原发性疾病和供体类型均未表现出任何相关性。我们提出,根据我们的发现,中纳卡米分布可用于表征区域性的移植肾脏和大多数患者特征。
translated by 谷歌翻译